0
本文作者: 周蕾 | 2020-08-12 20:02 | 專題:金融聯(lián)邦學(xué)習(xí)公開課 |
2020年8月7日-9日,第五屆CCF-GAIR全球人工智能與機(jī)器人峰會(huì),于深圳隆重舉辦。此次峰會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)主辦,香港中文大學(xué)(深圳)、雷鋒網(wǎng)聯(lián)合承辦,鵬城實(shí)驗(yàn)室、深圳市人工智能與機(jī)器人研究院協(xié)辦。
在8月9日的「AI金融專場(chǎng)」中,《AI金融評(píng)論》邀請(qǐng)了6位最具代表性的頂尖AI金融專家,分享能夠代表未來10年風(fēng)向的智能技術(shù)方法論、產(chǎn)品邏輯和風(fēng)險(xiǎn)管理理念。
首先登場(chǎng)的,是微眾銀行首席AI官楊強(qiáng)教授。聯(lián)邦學(xué)習(xí)和隱私計(jì)算,是今年所有金融巨鱷和科技寡頭們,都在重點(diǎn)布局的重要技術(shù)方向。作為這一領(lǐng)域的全球領(lǐng)軍人物,楊強(qiáng)也在會(huì)上帶來了他在前沿研究與產(chǎn)業(yè)應(yīng)用的真知灼見。
以下為楊強(qiáng)教授演講全文,雷鋒網(wǎng)AI金融評(píng)論做了不改變?cè)獾恼恚?/strong>
先簡(jiǎn)單介紹一下,微眾到現(xiàn)在有五年的歷史了,目前有大概兩億的個(gè)人用戶,還有將近百萬的小微企業(yè)用戶。這么短的時(shí)間可以獲得這么大的用戶群,應(yīng)該說很大程度上是取決于技術(shù)上的創(chuàng)新,包括云計(jì)算、大數(shù)據(jù)和人工智能。
其中一大亮點(diǎn)就是做連接,把不同的企業(yè)連接成一個(gè)生態(tài)。在這個(gè)過程當(dāng)中,AI是不可或缺的——正如今天的主題:AI到底在金融界能起到什么作用?
我們?cè)诤芏痰臅r(shí)間內(nèi)匯聚了很多人才,這些人才主要在四個(gè)方面把互聯(lián)網(wǎng)銀行大致規(guī)?;?、模型化了。這四個(gè)團(tuán)隊(duì)把微眾銀行內(nèi)部和外部的業(yè)務(wù)過程、經(jīng)驗(yàn)總結(jié)成了模型,這些模型可以供應(yīng)給其他行業(yè)一鍵下載、一鍵裝配,比如可以做營(yíng)銷、服務(wù)、資產(chǎn)管理,把金融的前臺(tái)和后臺(tái)都包括了。
遷移學(xué)習(xí)和聯(lián)邦學(xué)習(xí)也是如今比較突出的兩項(xiàng)技術(shù),可以把整個(gè)金融業(yè)務(wù)再往前推進(jìn)一步。
我們可以把未來的銀行想像成從左到右的流程,最左邊的是獲客,這是任何企業(yè)都需要做的,要找到有價(jià)值的客戶,對(duì)客戶進(jìn)行安全評(píng)估、風(fēng)險(xiǎn)信用評(píng)估,盡早發(fā)現(xiàn)可能的欺詐行為。
評(píng)估辦法之一是參考央行的征信數(shù)據(jù),但國(guó)內(nèi)很多人沒有征信數(shù)據(jù)(信用分),而且它只是一個(gè)維度,所以我們需要把維度變得更加豐富。
還有運(yùn)營(yíng)、監(jiān)管、對(duì)沉睡用戶的喚醒、7×24小時(shí)的客戶服務(wù),里面都有人工智能的影子。
在所有這些過程當(dāng)中有一個(gè)主線:如何能夠順利把盡量多的數(shù)據(jù)用起來。
我們聯(lián)邦學(xué)習(xí)的宗旨是數(shù)據(jù)不動(dòng)模型動(dòng),這是一個(gè)做法,目標(biāo)就是數(shù)據(jù)可用不可見:數(shù)據(jù)可以用,但是別人的數(shù)據(jù)我是見不到的,所以可以把數(shù)據(jù)加入到生態(tài)里面來共同建模,一些散亂的小數(shù)據(jù)就可以成為虛擬的大數(shù)據(jù),這是我們的思想。
這個(gè)思想的初衷其實(shí)是,現(xiàn)在很多行業(yè)并沒有真正意義上的大數(shù)據(jù),像在金融里面有很多的數(shù)據(jù),其實(shí)是黑天鵝現(xiàn)象。比方說在反洗錢應(yīng)用中用于模型訓(xùn)練的洗錢案例,其實(shí)數(shù)量并沒有想象中那么多,還是屬于少數(shù)現(xiàn)象。這種數(shù)據(jù)拿它來訓(xùn)練,效果不是很好。
如果要用人工智能改變很多行業(yè)的話,其實(shí)都沒有高質(zhì)量、有標(biāo)注、不斷更新的數(shù)據(jù)。
第四范式公司在實(shí)踐當(dāng)中就發(fā)現(xiàn),如果要為大額貸款做一個(gè)營(yíng)銷模型或風(fēng)控模型,數(shù)據(jù)往往是在上百例以內(nèi),這點(diǎn)樣本是沒有辦法訓(xùn)練一個(gè)好的深度模型的,所以他們的做法是從小額貸款到大額貸款做遷移學(xué)習(xí)。
每個(gè)人也都有手機(jī),手機(jī)都是聯(lián)到云端的,每個(gè)手機(jī)上的數(shù)據(jù),每時(shí)每刻都在更新,都有新的圖片、新的聲音、新的文章可以點(diǎn)擊,每個(gè)手機(jī)上的信息又是私密的,如何保證私密不傳出去,又能讓云端的大數(shù)據(jù)模型得到更新呢?
大家都熟悉無人車,比如有一千輛無人車,每輛車見到的數(shù)據(jù)都是有限的,我們能不能讓一千輛車的數(shù)據(jù)匯聚成一個(gè)虛擬的大數(shù)據(jù),同時(shí)又不暴露某個(gè)車看到的某個(gè)場(chǎng)景?
這就是分布性數(shù)據(jù)隱私、聯(lián)合建模的挑戰(zhàn)和需求——能不能把小數(shù)據(jù)聚合起來成為大數(shù)據(jù)?
問題是,現(xiàn)在監(jiān)管和社會(huì)的要求也非常嚴(yán)格,老百姓、社會(huì)對(duì)于技術(shù)工作者的要求是首先要保護(hù)隱私。政府也紛紛立法,比如歐洲建立了GDPR的數(shù)據(jù)法規(guī)。
我們國(guó)內(nèi)也有相關(guān)的保護(hù)法,在國(guó)家層面、地區(qū)層面,大家都在探索類似于、甚至更加嚴(yán)格于GDPR的數(shù)據(jù)法規(guī)。所以,簡(jiǎn)單粗暴地把數(shù)據(jù)從A傳到B是違法的。
聯(lián)邦學(xué)習(xí),“邦”的意思是每個(gè)實(shí)體參與者地位都是相同的,無論大小,提供的價(jià)值才是他們存在的意義?!奥?lián)”就是用一種方式把它們聯(lián)起來,把隱私保護(hù)起來,同時(shí)又可以做一些有意義的事情。
用一個(gè)簡(jiǎn)單的例子來解釋:假設(shè)用一只羊來類比機(jī)器學(xué)習(xí)模型,草就是數(shù)據(jù),我們希望羊吃了草以后能夠長(zhǎng)大。
過去的做法是,把草買到一起來建立模型。比方說左邊的模型,左邊的箭頭是指向羊的。羊不動(dòng),但是草被購(gòu)買到中心。相當(dāng)于簡(jiǎn)單粗暴地獲取數(shù)據(jù),形成大數(shù)據(jù),來建立模型。
但我們希望能夠保護(hù)各自的隱私,所以讓草不動(dòng),讓羊動(dòng)。這樣羊既能吃那個(gè)地方的草,主人又不知道到底吃了哪些草,久而久之羊就長(zhǎng)大了——這個(gè)就是聯(lián)邦學(xué)習(xí)的新思路,就是讓草不出草場(chǎng),本地主人無法知道羊吃了哪些草,但是羊還是長(zhǎng)大了。
這個(gè)思想的關(guān)鍵是,當(dāng)我們的模型從一個(gè)地方傳到另外一個(gè)地方的時(shí)候,要傳盡量少的東西,同時(shí)傳的模型參數(shù)要被加密。圖右這些帶有一個(gè)框的W就是加密的意思,在本地加密,就只能在本地解密。
現(xiàn)在有一種穿透式的加密,把所有的加密包放在云端的時(shí)候,還可以對(duì)它進(jìn)行更新操作。比如對(duì)這個(gè)模型的集成更新,用集成學(xué)習(xí)。
谷歌就提出了“對(duì)模型聯(lián)邦平均”的做法,還有其他比較復(fù)雜的方法如神經(jīng)網(wǎng)絡(luò)等。
這種做法分兩種數(shù)據(jù)格式,一種格式是把樣本分割,放在終端,像圖左邊所表示的一樣,這是橫向聯(lián)邦。
還有一種是縱向聯(lián)邦,沿著特征把數(shù)據(jù)分成幾塊,每一塊屬于一個(gè)機(jī)構(gòu)。比如有兩家醫(yī)院,雙方數(shù)據(jù)可能在用戶上有很多重疊,可是在特征上面沒有很多重復(fù)。比如其中一家醫(yī)院做的是胸片,另外一家做的是核酸檢測(cè),如果聯(lián)合就可以做更好的模型。
但出于隱私或利益等原因,他們不愿意互傳。這時(shí)就可以用如圖所示的方式,可以讓一方的數(shù)據(jù)在加密狀態(tài)下傳到另一方,參與模型更新,重復(fù)多次后得到最優(yōu)化的模型。有新用戶的時(shí)候也是通過加密傳輸,使中間結(jié)果得到運(yùn)算。
縱向聯(lián)邦適合to B的場(chǎng)景,橫向聯(lián)邦適合to C的場(chǎng)景。谷歌用的比較多的是橫向,我們微眾用的比較多的就是縱向,當(dāng)然也有混合的用法,橫向中有縱向,縱向中有橫向。
在座的朋友們可能會(huì)問,聯(lián)邦學(xué)習(xí)跟以前的分布式AI、參數(shù)服務(wù)器、聯(lián)邦數(shù)據(jù)庫(kù)有什么區(qū)別?
過去,分布式AI和聯(lián)邦數(shù)據(jù)庫(kù)里面,數(shù)據(jù)的形態(tài)、分布、表征都是一樣的,是同類的。在聯(lián)邦學(xué)習(xí)里面,它們可以是異構(gòu)的,特征不一樣,分布也不一樣。從機(jī)器學(xué)習(xí)的角度來說,更加復(fù)雜。
同時(shí),隱私保護(hù)是第一性的要求。過去,分布式AI和聯(lián)邦數(shù)據(jù)庫(kù)都是在一個(gè)數(shù)據(jù)的功能下,把數(shù)據(jù)分布在不同的數(shù)據(jù)庫(kù),目的是并行計(jì)算、提高效率。但是現(xiàn)在數(shù)據(jù)本身屬于不同的屬主,所以需要做加密情況下保護(hù)隱私的計(jì)算。
可能還有聽眾想問,假如在多個(gè)參與者中,有一個(gè)參與者是壞人怎么辦?他在努力猜你的數(shù)據(jù),甚至在做數(shù)據(jù)的“下毒”,比如故意標(biāo)注一些錯(cuò)誤的信息,就有可能把最終的模型變成對(duì)自己有利的方向,這也是有可能的。
如果原始數(shù)據(jù)是0,在OCR的場(chǎng)景下,另一方可以不斷地接受對(duì)方的梯度猜出對(duì)方的數(shù)據(jù)。如果百分之百地采用同態(tài)加密,用聯(lián)邦學(xué)習(xí)的方法,這種情況就不會(huì)發(fā)生。
聯(lián)邦學(xué)習(xí)的特點(diǎn)是引入了生態(tài)的維持機(jī)制,也就是經(jīng)濟(jì)學(xué)機(jī)制。如果要讓聯(lián)盟能夠持續(xù)下去,每個(gè)參與者都要感覺到作用和收益是成正比的,這就要引入經(jīng)濟(jì)學(xué)或者博弈論的機(jī)制來保證持續(xù)的平衡點(diǎn)。
總結(jié)一下,其中有很多工作要做,包括安全合規(guī),這是跟法律層面、跟政府層面合作;有防御攻擊,還有算法效率,技術(shù)應(yīng)用、還有激勵(lì)機(jī)制,要引入很多經(jīng)濟(jì)學(xué)家的工作。
舉個(gè)例子,因?yàn)槁?lián)邦學(xué)習(xí)是一個(gè)大的框架,所以有各種各樣落地的場(chǎng)景。比如推薦場(chǎng)景,大家用抖音、用頭條、用電商,這個(gè)時(shí)候都離不開個(gè)性化的推薦,但是推薦是數(shù)據(jù)越多越好。
如果數(shù)據(jù)來自不同方,過去是把數(shù)據(jù)買到本地來進(jìn)行推薦模型的建立??梢杂寐?lián)邦學(xué)習(xí)來解決這個(gè)問題,這個(gè)做法是“聯(lián)邦推薦”。最近我們把聯(lián)邦推薦的算法應(yīng)用在廣告推薦的場(chǎng)景上,用各方的數(shù)據(jù),最后廣告推薦的場(chǎng)景可以個(gè)性化,但是數(shù)據(jù)可以不出本地。
應(yīng)用在信貸和征信系統(tǒng),我們希望利用大數(shù)據(jù)建立360度的用戶和企業(yè)畫像,參加建立更好的征信。但是聯(lián)邦學(xué)習(xí)出現(xiàn)以前都沒有很好的技術(shù),大家都不參與到這個(gè)生態(tài)里面,擔(dān)心自己的數(shù)據(jù)被偷走。用了聯(lián)邦學(xué)習(xí)以后就可以做這個(gè)嘗試。
比如這個(gè)嘗試是一家銀行和票據(jù)公司的合作,數(shù)據(jù)都不出本地,銀行所提供的是這個(gè)用戶貸款的關(guān)鍵數(shù)據(jù),合作企業(yè)提供的是企業(yè)的交易數(shù)據(jù),這種交易數(shù)據(jù)為企業(yè)的活躍度提供了很多的信息,這兩個(gè)數(shù)據(jù)進(jìn)行聯(lián)邦,可以讓壞賬率大幅度降低。
應(yīng)用在計(jì)算機(jī)視覺,每個(gè)庫(kù)房都有很多攝像頭監(jiān)控本地的庫(kù)存,可以用不同視覺公司的監(jiān)控?cái)?shù)據(jù)進(jìn)行供應(yīng)鏈聯(lián)邦。
更多跨領(lǐng)域的應(yīng)用,比如監(jiān)管和銀行、互聯(lián)網(wǎng)和電商、互聯(lián)網(wǎng)和醫(yī)院,都可以進(jìn)行聯(lián)邦。
建立這樣一個(gè)生態(tài),離不開行業(yè)標(biāo)準(zhǔn)。我們推進(jìn)建立的IEEE國(guó)際標(biāo)準(zhǔn)這個(gè)月也會(huì)出臺(tái),國(guó)家層面也有標(biāo)準(zhǔn)。我們也推出了開源軟件FATE。
我用微眾銀行的典型案例進(jìn)行總結(jié),剛才說的聯(lián)邦技術(shù)貫穿了所有前臺(tái)和后臺(tái)。比如智能營(yíng)銷,引入聯(lián)邦學(xué)習(xí)以后,可以把不同的數(shù)據(jù)源結(jié)合起來,讓營(yíng)銷提高點(diǎn)擊率。
特別受關(guān)注的是點(diǎn)擊之后用戶有沒有轉(zhuǎn)化、有沒有變成你的用戶,這個(gè)過程需要更多的數(shù)據(jù)支持,這些數(shù)據(jù)往往來源于合作者,利用聯(lián)邦學(xué)習(xí)的效果可以大幅度提高20%以上。
反欺詐方面,可以在人臉識(shí)別、語(yǔ)音識(shí)別方面都可以大幅度提高效率。
風(fēng)控方面,也是利用大數(shù)據(jù)把金融公司和非金融公司聯(lián)成生態(tài),大家在這個(gè)生態(tài)里面進(jìn)行數(shù)據(jù)價(jià)值的交易。
還可以利用另類數(shù)據(jù),比如把衛(wèi)星數(shù)據(jù)、電信數(shù)據(jù)、非傳統(tǒng)財(cái)報(bào)數(shù)據(jù)聯(lián)合起來,可以實(shí)時(shí)為投資者服務(wù)。
如何喚醒沉睡的、有價(jià)值的用戶?也可以用聯(lián)邦學(xué)習(xí)識(shí)別這個(gè)客戶有沒有重新跟你合作的意愿。我們的經(jīng)驗(yàn)是在當(dāng)前這個(gè)經(jīng)濟(jì)形勢(shì)下,是非常好的金融場(chǎng)景。
7×24小時(shí)的機(jī)器人服務(wù),微眾現(xiàn)在有98%以上是機(jī)器人在做后臺(tái)服務(wù),包括對(duì)話系統(tǒng)、客戶服務(wù)、服務(wù)當(dāng)中的監(jiān)管、質(zhì)量檢測(cè)、智能監(jiān)控、反洗錢,把細(xì)碎的小數(shù)據(jù)聯(lián)系起來,變成可用數(shù)據(jù)。
以上就是我們的經(jīng)驗(yàn)和總結(jié),謝謝大家。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章